%	\chapter{经典统计物理}
在这章中，我们尝试用概率论的语言来为统计物理做一个刻画。
\section{微观量与宏观量}
考虑含有$N_A$个数量级的粒子系统，这个系统里的每一个粒子的所处的状态(比如说，一号粒子具有多少能量，二号粒子具有多少能量，等等)放在一起，称作微观态。一个微观态起到的是作为一个样本点$\omega$的作用，而所有的可能的微观态集合起来就是全集$\Omega$。由于粒子数目是有限的，微观态是分立的，因此建立起的是古典概型。但粒子数和微观态的数目是如此巨大，以至于我们也可以用连续型的模型来描述。

在这些样本点$\{\omega\}$上，就可以按照概率论中的手续定义$\sigma-$代数，也就是集族$\mathfrak{F}$。集族$\mathfrak{F}$中的元素就是事件，而在$\mathfrak{F}$上便可以定义概率测度$P$。

不难发现，粒子体系中的总能量$E$、总体积$V$、压强$p$等等之类的“宏观量”，事实上就是随机变量。每一个总能量的取值范围$E\leq E_i$下对应着大量的微观态，或者说对应着一个事件$A \in \mathfrak{F}$：这正符合第二章中随机变量的定义。由此，我们便可以考虑求出随机变量$E$的分布列
\begin{equation}
P(E=E_i)=p_i
\end{equation}
然而，由于宏观态的数目太多了，每两个相邻的$E_i$和$E_j$之间的间隔$\Delta E$太小，概率的绝对值也太小，所以按照类似于数值计算中的精神，把$E$当成连续型随机变量，从而考虑其概率密度$f(E)$。这样，要计算体系总能量处在某个区间$(E_{i-1},E_{i})$之间的概率，就可以用下式计算：
\begin{equation}
P(E_{i-1}\leq E <E_{i})=\int_{E_{i-1}}^{E_i}f(E)dE
\end{equation}
根据数值计算的原理，我们原则上可以计算出用积分代替求和的误差。显然这种误差应当是$O(\Delta E)$量级的，这么小的误差会被完全淹没在实验误差的范围内。

经典力学断言运动可以由位置和速度完全预言，而概率论则认为这是随机变量。为了搭建起经典力学与统计物理的桥梁，需要使用Gibbs建立起的系综理论。对于$N$个微观粒子的系统，含有$Ns$个广义坐标和$Ns$个广义动量，其在相空间的运动满足
\begin{equation}
\begin{cases}
\dot{q}_i=\frac{\partial H}{\partial p_i}\\
\dot{p}_i=-\frac{\partial H}{\partial q_i}
\end{cases}
\end{equation}
的哈密顿方程。所谓的微观态，就指的是运动学量$(p,q)$。作为哈密顿方程的等价形式，引入泊松括号，对于微观态$(p,q)$的一个态函数$O(p,q,t)$有
\begin{equation}
\frac{dO}{dt}=\frac{\partial O}{\partial t}+\sum_{i=1}^{N_s}\left(\frac{\partial O}{\partial q_i}\frac{\partial H}{\partial p_i}-\frac{\partial O}{\partial p_i}\frac{\partial H}{\partial q_i}\right)=\{O,H\}+\frac{\partial O}{\partial t}
\end{equation}
一个系综就是这样一个集合，其中元素是经典的力学系统，具有相同的哈密顿量和自由度数目，但初值条件不同。系综的每一个代表点在相空间中运动，产生不相交的轨道。这样的系综建立起来之后，就可以将其视为多元的Borel集，并在其上定义随机变量$(p,q)$，这样我们就从决定论转移到概率论。这种随机变量的概率密度$\rho(p,q,t)$符合归一化的条件，而且更重要的是，它在运动中保持不变：
\begin{theorem}[Liouville定理]
	相空间中的密度$\rho(p,q,t)$在运动中满足
	\begin{equation}
	\frac{d\rho(p,q,t)}{dt}=\frac{\partial \rho }{\partial t}+\{\rho,H\}=0
	\end{equation}
\end{theorem}
\begin{proof}
	设$D(q,p,t)$是相空间中代表点的密度，则由于系统的总数是守恒的，我们有连续性方程
	\begin{equation}
	\frac{\partial D}{\partial t}=-\sum_{i=1}^{Ns}\left(\frac{\partial D\dot{q}_i}{\partial q_i}+\frac{\partial D\dot{p}_i}{\partial p_i}\right)
	\end{equation}
	注意到
	\begin{equation}
	\frac{\partial D\dot{q}_i}{\partial q_i}+\frac{\partial D\dot{p}_i}{\partial p_i}=\frac{\partial D}{\partial q_i}\dot{q}_i+\frac{\partial D}{\partial p_i}\dot{p}_i+D\left(\frac{\partial \dot{q}_i}{\partial q_i}+\frac{\partial\dot{p}_i}{\partial p_i}\right)
	\end{equation}
	有
	\begin{equation}
	\frac{\partial \dot{q}_i}{\partial q_i}+\frac{\partial\dot{p}_i}{\partial p_i}=\frac{\partial^2 H}{\partial q_i\partial p_i}-\frac{\partial^2 H}{\partial p_i\partial q_i}=0
	\end{equation}
	从而
	\begin{equation}
	\frac{\partial D}{\partial t}=-\sum_{i=1}^{Ns}\left(\frac{\partial D}{\partial q_i}\dot{q}_i+\frac{\partial D}{\partial p_i}\dot{p}_i\right)=-\{D,H\}
	\end{equation}
	取
	\begin{equation}
	\rho(p,q,t)=\frac{D(p,q,t)}{N}
	\end{equation}
	有
	\begin{equation}
	\frac{\partial \rho}{\partial t}+\{\rho,H\}=0,\quad \int \rho(p,q,t) dqdp=1
	\end{equation}
	\qed
\end{proof}

对于平衡态统计物理而言，$H$以及$\rho$都不应当显含$t$，也就是说，它们对时间的偏微分都等于$0$。从而根据Liouville定理，$\rho$是守恒量，而且是多体系统全部的基本而独立的运动积分的函数：
\begin{equation}
\rho=\rho(H,\vec{P},\vec{M},N,\cdots)
\end{equation}

建立起微观量和宏观量之间的桥梁则由下面的公理保证：
\begin{axiom}[遍历性公设]
	力学量$O(p,q)$的时间平均值与期望相等，也就是
	\begin{equation}
	\lim\limits_{t\to\infty}\frac{1}{t}\int_{0}^{t}O(p,q)dt=\int O(p,q)\rho(p,q)dpdq
	\end{equation}
\end{axiom}
这个公理是实验定律，而不能由理论推得。在实验中外界不可避免的微小作用，使得这个实验定律总是成立。这条公理意味着，任何一个微观量，都有一个宏观量与之对应，也就是这个微观量的概率平均值。但是，并不是所有的宏观量都有微观量与其对应，比如说温度。

\section{微正则系综与熵}
\begin{axiom}[等概率公设]
	对于处于平衡态的孤立系统，概率密度$\rho(p,q)$是常数。或者说，各随机向量的取值$(p,q)$是等可能的。
\end{axiom}

\begin{axiom}[热力学第二定律]
	孤立系统趋于平衡态时，熵达最大值。
\end{axiom}

这两个公设实际上指的是，在不做别的限定的情况下，考虑密度$\rho(p,q)$，那么在$\rho$为常数的情况下，其泛函，也就是熵
\begin{equation}
S=-k_B\int \rho(p,q)\ln\rho(p,q)dpdq
\end{equation}
达到最大。这种不做任何限定的孤立系统，组成的系综称为微正则系综。作为变分问题，做法与信息论一章的连续情形那一节中一致。
\begin{theorem}
	当概率密度$\rho(x,y)$为常数时，熵达最大。
\end{theorem}
\begin{proof}
我们有限制
\begin{equation}
\int \rho(p,q)dpdq=1
\end{equation}
从而引入拉格朗日乘子$\lambda$使得
\begin{equation}
\int -k_B\rho(p,q)\ln\rho(p,q)+\lambda\rho(p,q) dpdq
\end{equation}
达到最大。做变分可得
\begin{equation}
-k_B(\ln \rho(p,q) + 1)+\lambda =0
\end{equation}
从而满足约束的$\rho(p,q)$是
\begin{equation}
\rho(p,q)=e^{\frac{\lambda}{k_B}-1}=C
\end{equation}
其中$C$由归一化条件决定。
\qed
\end{proof}


\section{正则系综与温度}

\begin{axiom}[热力学第零定律]
	如果两个系统的每一个都与第三个系统单独处于热平衡，则它们彼此也处于热平衡。
\end{axiom}

热力学第零定律为温度的实验标定提供了依据。我们先验地定义一个温度计，方法是在温度计处于某个理化状态(比如说，体积是多少)时，定义其温度值。那么当温度计与某个系统达成热平衡时，温度计用其他理化性质显示出来的温度就是该系统的温度。

但是我们希望用概率的方式定义温度，因此考虑两个仅可交换能量(从而可以达到热平衡)但不交换其他东西的系统(其中一个系统的各个可能的状态的集合称为正则系综)。实际上，我们可以把它作为一个大系统的两个部分。这个大系统具有随机向量$(E_1,E_2)$，而随机向量的两个分量是独立的，也就是说联合密度等于边缘密度的乘积：
\begin{equation}
f(E_1,E_2)=f_1(E_1)f_2(E_2)
\end{equation}
而这个联合密度实际上就是
\begin{equation}
f(E_1,E_2)=f(H_1(p_1,q_1),H_2(p_2,q_2))
\end{equation}

为了找到定义温度的依据，我们先以概率的形式来刻画热平衡：
\begin{definition}[热平衡的统计描述]
	考虑两个体系，分别具有独立随机变量$E_1,E_2$，其联合分布为$f(E_1,E_2)$。如果在总能量守恒的条件下，一个系统达到其最有可能出现的状态，也就是条件密度达到最大值：
	\begin{equation}
	f(E_1|E_1+E_2=E)\to \max\{f(E_1|E_1+E_2=E)\}
	\end{equation}
	则我们称这两个体系达到热平衡。
\end{definition}

那么接下来的工作就是写出$f(E_1,E_2|E_1+E_2=E)$的形式并求其关于$E_1$的导数。我们归结为如下命题：
\begin{theorem}
	设两个独立的连续型随机变量$X,Y>0$分别具有概率密度$f_X(x)$和$f_Y(y)$。它们的联合密度为$f(x,y)=f_X(x)f_Y(y)$。那么，其在条件$X+Y=z$下的条件概率分布为
	\begin{equation}
	F_{X|X+Y}(x|x+y=z)=\frac{\int_{0}^{x}f_1(u)f_2(z-u)du}{\int_{0}^{z}f_1(u)f_2(z-u)du}
	\end{equation}
	从而条件概率密度为
	\begin{equation}
	f_{X|X+Y}(x|x+y=z)=\frac{f_1(x)f_2(z-x)}{\int_{0}^{z}f_1(u)f_2(z-u)du}
	\end{equation}
\end{theorem}
\begin{proof}
	仿照条件分布一节的做法，把条件概率分布写为
	\begin{equation}\begin{aligned}
	F_{X|X+Y}(x|x+y=z)=&P(X\leq x|X+Y=z)\\
	=&\lim\limits_{\epsilon\to 0}\frac{P(X\leq x, z-\epsilon<X+Y\leq z+\epsilon)}{P(z-\epsilon<X+Y\leq z+\epsilon)}
	\end{aligned}\end{equation}
	
	其中，分母可以写为
	\begin{equation}
	P(z-\epsilon<X+Y\leq z+\epsilon)=\int_{z-\epsilon}^{z+\epsilon}\int_{0}^{z+\epsilon-v}f(u,v)dudv+\int_{0}^{z-\epsilon}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv
	\end{equation}
	如图所示，第一项对应于积分区域$A$，是个三角形；第二项对应于积分区域$B$，是个平行四边形。
	\begin{figure}[H]
		\includegraphics[width=0.5\textwidth]{figure//IntegrateDomain.png}
		\centering
		\caption{积分区域}
	\end{figure}
	我们将第二项写为
	\begin{equation}
	\int_{0}^{z-\epsilon}\int_{z-\epsilon-v}^{z-\epsilon+v}f(u,v)dudv=\int_{0}^{z}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv-\int_{z-\epsilon}^{z}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv
	\end{equation}
	从而有
	\begin{equation}
	P(z-\epsilon<X+Y\leq z+\epsilon)=\int_{0}^{z}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv+o(\epsilon)
	\end{equation}
	其中
	\begin{equation}
	\begin{aligned}
	|o(\epsilon)|&=\left|\int_{z-\epsilon}^{z+\epsilon}\int_{0}^{z+\epsilon-v}f(u,v)dudv-\int_{z-\epsilon}^{z}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv\right| \\
	&\leq \left|\int_{z-\epsilon}^{z+\epsilon}\int_{0}^{z+\epsilon-v}f(u,v)dudv\right|+\left|\int_{z-\epsilon}^{z}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv\right|\\
	&\leq M|2\epsilon^2|+M|\sqrt{2}\epsilon^2|,\quad \text{given that }|f(u,v)|\leq M
	\end{aligned}
	\end{equation}
	所以有
	\begin{equation}
	\lim\limits_{\epsilon\to 0}\frac{P(z-\epsilon<X+Y\leq z+\epsilon)}{2\epsilon}=\lim\limits_{\epsilon\to 0}\frac{1}{2\epsilon}\int_{0}^{z}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv
	\end{equation}
	考虑到$f(u,v)=f_X(u)f_Y(v)$，则根据Fubini定理，
	\begin{equation}
	\lim\limits_{\epsilon\to 0}\frac{1}{2\epsilon}\int_{0}^{z}\int_{z-\epsilon-v}^{z+\epsilon-v}f(u,v)dudv=\lim\limits_{\epsilon\to 0}\int_{0}^{z}f_Y(v)\frac{F_X(z+\epsilon-v)-F_X(z-\epsilon-v)}{2\epsilon}dv
	\end{equation}
	作为闭区间上的函数$F_X$显然满足一致收敛的条件，故
	\begin{equation}
	\lim\limits_{\epsilon\to 0}\frac{P(z-\epsilon<X+Y\leq z+\epsilon)}{2\epsilon}=\int_{0}^{z}f_{Y}(v)f_X(z-v)dv
	\end{equation}
	换元，令$u=z-v$，有
	\begin{equation}
	\lim\limits_{\epsilon\to 0}\frac{P(z-\epsilon<X+Y\leq z+\epsilon)}{2\epsilon}=\int_{0}^{z}f_X(u)f_Y(z-u)du
	\end{equation}
	
	同理，分子则可以改写为
	\begin{equation}
	\lim\limits_{\epsilon\to 0}\frac{P(X\leq x, z-\epsilon<X+Y\leq z+\epsilon)}{2\epsilon}=\int_{0}^{x}f_X(u)f_Y(z-u)du
	\end{equation}
	所以条件分布为
	\begin{equation}\begin{aligned}
	F_{X|X+Y}(x|x+y=z)&=\lim\limits_{\epsilon\to 0}\frac{P(X\leq x, z-\epsilon<X+Y\leq z+\epsilon)}{P(z-\epsilon<X+Y\leq z+\epsilon)}\\
	&=\lim\limits_{\epsilon\to 0}\frac{2\epsilon}{2\epsilon}\frac{P(X\leq x, z-\epsilon<X+Y\leq z+\epsilon)}{P(z-\epsilon<X+Y\leq z+\epsilon)}\\
	&=\frac{\int_{0}^{x}f_X(u)f_Y(z-u)du}{\int_{0}^{z}f_X(u)f_Y(z-u)du}
	\end{aligned}\end{equation}
	对应地，条件密度为
	\begin{equation}\begin{aligned}
	f_{X|X+Y}(x|x+y=z)&=\frac{d}{dx}F_{X|X+Y}(x|x+y=z)\\
	&=\frac{f_X(x)f_Y(z-x)}{\int_{0}^{z}f_X(u)f_Y(z-u)du}
	\end{aligned}\end{equation}
	\qed
\end{proof}

如此一来，我们便得到了关于$E_1$的条件密度
\begin{equation}
f(E_1|E_1+E_2=E)=\frac{dF(E_1|E_1+E_2=E)}{dE_1}=\frac{f_1(E_1)f_2(E-E_1)}{\int_{0}^{E}f_1(E_1)f_2(E-E_1)dE1}
\end{equation}
该条件密度会在$df(E_1|E_1+E_2=E)/dE_1=0$的地方取最大值，所以
\begin{equation}
f_2(E-E_1)\frac{df_1(E_1)}{dE_1}+f_1(E_1)\frac{df_2(E-E_1)}{dE_1}=0
\end{equation}
注意到，
\begin{equation}
\frac{df_2(E-E_1)}{dE_1}=-\left.\frac{df_2(E_2)}{dE_2}\right|_{E_2=E-E_1}
\end{equation}
所以，条件分布密度取最大值的地方在
\begin{equation}
\frac{1}{f_1(E_1)}\frac{df_1(E_1)}{dE_1}=\frac{1}{f_2(E_2)}\frac{df_2(E_2)}{dE_2}
\end{equation}
的地方取到。最终，我们找到了度量两个独立的体系在达成热平衡时，那个能标识该体系的状态的相等的函数：
\begin{equation}
T_1=T_2
\end{equation}

\begin{definition}[温度的统计定义]
	对于一个粒子体系而言，能量$E$服从概率密度函数$f(E)$，则其温度定义为
	\begin{equation}
	-\frac{1}{k_BT}=\frac{1}{f(E)}\frac{df(E)}{dE}=\frac{d\ln f(E)}{dE}
	\end{equation}
	其中，$k_B$是玻尔兹曼常数。
\end{definition}

%\section{玻尔兹曼分布}
%与之前类似，考虑两个系统，分别具有能量(作为独立的随机变量)$E_1$和$E_2$。不同的是，第二个系统特别巨大，称之为热库，温度为$T$。把第一个系统放在热库旁边，到平衡时第一个系统的温度也变成了$T$。现在，我们希望求得此时第一个系统的能量的概率密度$f_1(E_1)$。
\section{玻尔兹曼分布}
我们已经求得在正则系综中，存在温度$T$作为不变量。那么，此时的概率密度就服从玻尔兹曼分布。

\begin{theorem}[玻尔兹曼分布]
	在温度$T$下，系统能量$E$的概率密度为
	\begin{equation}
	f(E)=\beta e^{-\beta H}=\frac{1}{k_BT}\exp\left(-\frac{E}{k_BT}\right)
	\end{equation}
\end{theorem}
\begin{proof}
	考虑与温度$T$的热库达到热平衡的系统，根据温度的定义，我们有
	\begin{equation}
	\frac{1}{k_B T}=\frac{d\ln f_1(E_1)}{dE_1}
	\end{equation}
	分离变量两边积分可得
	\begin{equation}
	f_1(E_1)=A\exp\left(-\frac{E_1}{k_BT}\right)
	\end{equation}
	需要满足归一化条件
	\begin{equation}
	\int_{0}^{+\infty}f_1(E_1)dE_1=1
	\end{equation}
	从而
	\begin{equation}
	A=\frac{1}{k_BT}=\beta
	\end{equation}
	\qed
\end{proof}

事实上，玻尔兹曼分布是正则系综下，熵最大的分布。证明方法类似于信息论一章的连续情形一节的做法。
\begin{theorem}
	如果概率密度$f(E)$只在$E>0$处有取值，且期望为$U$时，那么当$f(E)$服从指数分布时，玻尔兹曼分布的熵达最大值。
\end{theorem}
\begin{proof}
	我们有限制
	\begin{equation}
	\int_0^{\infty} f(E)dE=1
	\end{equation}
	以及
	\begin{equation}
	\int_{0}^{\infty} Ef(E)dE=U
	\end{equation}
	从而引入拉格朗日乘子$\lambda$和$\mu$使得
	\begin{equation}
	\int_{0}^{\infty}-k_B f(E)\ln f(E)+\lambda f(E)+\mu Ef(E)
	\end{equation}
	达到最大。做变分可得
	\begin{equation}
	-k_B(1+\ln f(E))+\lambda +\mu E=0
	\end{equation}
	从而
	\begin{equation}
	f(E)=e^{\frac{\lambda+\mu E}{k_B}-1}
	\end{equation}
	其中$\lambda$和$\mu$由归一化条件和期望给定的条件决定。
	\qed
\end{proof}


下面是玻尔兹曼分布的应用。

\paragraph{等温大气的粒子数密度分布}考虑等温大气中的一个很小的气团。该气团的能量为
\begin{equation}
E=U+mgz
\end{equation}
其中$U$是常数。从而它处于高度$z$的概率密度为
\begin{equation}
f(z)=A e^{-\beta (U+mgz)}=f(0)e^{-\beta mgz}
\end{equation}
因此在等温空气中，气体密度是随着高度指数减小的。

\paragraph{单原子分子气体的粒子速度分布}
考虑平衡态(等温)体系中的一个粒子，这个粒子具有速度$\vec{v}=(v_x,v_y,v_z)$。作为一个随机向量，该粒子在三个方向的速度分量是独立的。假定该粒子的速度分量的概率密度分别为$f_X(v_x),f_Y(v_y),f_Z(v_z)$，则其速率的概率分布函数是
\begin{equation}
F(v)=\int_{\sqrt{v_x^2+v_y^2+v_z^2}\leq v}f_X(v_x)f_Y(v_y)f_Z(v_z)dv_xdv_ydv_z
\end{equation}
换元成球坐标系下，令
\begin{equation}
\begin{cases}
v_x=u\sin\theta\cos\phi\\
v_y=u\sin\theta\sin\phi\\
v_z=u\cos\theta
\end{cases}
\end{equation}
从而
\begin{equation}
F(v)=\int_{0}^{2\pi}d\phi\int_{0}^{\pi}d\theta\int_{0}^{v}f_X(u\sin\theta\cos\phi)f_Y(u\sin\theta\sin\phi)f_Z(u\cos\theta)u^2du
\end{equation}

整个统计物理的前提是基于考察大量粒子的体系，而在经典情形下，这些粒子实际上服从的是经典力学规律，其基本的坐标是在定义在相空间的$(q_i,p_i)$。因此，对于一维情形而言，显然与能量成正比的$z$以及$v_x^2$服从的是与能量相同的指数分布。但是，当扩展到三维情形时，就必须根据每一个维度分别考察。

因此，我们有
\begin{equation}
f_X(v_i)=f_Y(v_i)=f_Z(v_i)=Ae^{-\frac{1}{2}\beta mv_i^2}
\end{equation}
其中$A$是归一化常数，
\begin{equation}
A=\sqrt{\frac{m}{2\pi k_BT}}
\end{equation}
于是
\begin{equation}
F(v)=2\pi^2\int_{0}^{v}A^3e^{-\frac{1}{2}\beta mu^2}du
\end{equation}
所以
\begin{equation}
f(v)=\frac{dF(v)}{dv}=\frac{4}{\sqrt{\pi}}\left(\frac{m}{2k_BT}\right)^{3/2}e^{-\frac{1}{2}\beta mv^2}
\end{equation}

\paragraph{理想气体状态方程}
状态方程由$p=f(T,V)$的形式给出。为了求得理想气体的状态方程，我们需要求得压强与粒子速度的关系。为此，我们需要求出粒子对测量压强的仪器(通常受力面是一个具有一定面积的平整表面)的冲量期望。

设$n_0$则是撞击于受力面上的粒子数目。在$dt$时间内，体积元$Sv_zdt$内的粒子会撞上受力面，而这些粒子的数目是$n_0=nSv_zdt$个。于是，在$dt$时间内，对面积为$S$的受力面的总冲量为
\begin{equation}
I=2mn_0v_z=2mnSv_z^2dt
\end{equation}
于是压强为
\begin{equation}
p=2mn<v_z^2>
\end{equation}
其中$n$是粒子数密度。考虑到
\begin{equation}
<v_z^2>=\sqrt{\frac{m}{2\pi k_BT}}\int_{0}^{+\infty}v_z^2e^{-\frac{1}{2}\beta mv_z^2}dv_z=\frac{k_BT}{2m}
\end{equation}
注意，此处积分只能对$v_z$大于零的部分积分，因为$v_z$小于零的部分不会对冲量有贡献。最终我们有
\begin{equation}
p=nk_BT
\end{equation}
就是理想气体状态方程。

\section{配分函数与热力学量}
在求得玻尔兹曼分布的过程中，归一化的常数可以写为
\begin{equation}
Z(\beta)=\frac{1}{A}=\int_{0}^{\infty}e^{-\beta E}dE=\int e^{-\beta H(p,q)}dpdq
\end{equation}
称$Z(\beta)$为配分函数。某些时候，$E$并不能看作是一个连续型随机变量，而应该看作离散型随机变量。这时，配分函数就写为
\begin{equation}
Z(\beta)=\sum_{i}e^{-\beta E_i}
\end{equation}

配分函数十分重要，因为从它可以方便地导出各种各样的热力学量，这是由配分函数的由指数积分的数学形式所给予的方便。一般来说，解统计物理题，第一步写出哈密顿量，第二步写出配分函数，第三步由配分函数导出各种热力学量。比如，在导出理想气体状态方程时，我们写出理想气体的哈密顿量
\begin{equation}
H=\sum_{i=1}^N \frac{p_i^2}{2m}
\end{equation}
然后计算配分函数，设体积$V=a_1a_2a_3$，有
\begin{equation}
Z=\int e^{-\beta H}dpdq=\left(\prod_{i=1}^3\int_{0}^{a_i} dq_i\int_0^{\infty} e^{-\frac{\beta p_i^2}{2m}}\right)^N=\left(V\left(\frac{2\pi m}{\beta}\right)^{\frac{3}{2}}\right)^N
\end{equation}
最后导出热力学量，也就是压强。压强作为广义力，可以表示为
\begin{equation}
p=\left\langle -\frac{\partial H}{\partial V}\right\rangle=\frac{\int -\frac{\partial H}{\partial V}e^{-\beta H} dpdq}{\int e^{-\beta H}dpdq}=\frac{1}{\beta}\frac{\partial\ln Z}{\partial V}=\frac{Nk_BT}{V}
\end{equation}
这正是理想气体状态方程。

除了压强之外，其他宏观量也有：
\begin{theorem}[由配分函数导出热力学量1]
	\begin{enumerate}
		\item 熵为
		\begin{equation}
		S=k_B\left(\ln Z-\beta\frac{\partial \ln Z}{\partial \beta}\right)
		\end{equation}
		\item 内能为
		\begin{equation}
		U=\frac{1}{Z}\int e^{-\beta H}dpdq=-\frac{\partial\ln Z}{\partial\beta}
		\end{equation}
		\item 设$X_i$是广义位移，广义力$Y_i$为
		\begin{equation}
		Y_i=-\frac{\partial H}{\partial X_i}
		\end{equation}
		则广义力的期望是
		\begin{equation}
		Y_i=-\frac{1}{Z}\int \frac{\partial H}{\partial X_i}e^{-\beta H}dpdq=\frac{1}{\beta}\frac{\partial\ln Z}{\partial X_i}
		\end{equation}
		当广义位移是体积时，广义力就是压强。
		\item Helmholtz自由能为
		\begin{equation}
		F=-k_BT\ln Z
		\end{equation}

	\end{enumerate}
\end{theorem}
\begin{proof}
	\begin{enumerate}
		\item 我们有
		\begin{equation}\begin{aligned}
		S&=-k_B\int \rho(p,q)\ln\rho(p,q)dpdq\\
		&=-k_B\int \frac{e^{-\beta H}}{Z}[-\beta H-\ln Z]dpdq\\
		&=k_B\frac{\ln Z}{Z}+\frac{\beta}{Z}\int He^{-\beta H}dpdq\\
		&=k_B\ln Z \left(\frac{1}{Z}\int e^{-\beta H}dpdq\right)+\frac{k_B \beta}{Z}\int He^{-\beta H}dpdq\\
		&=k_B\left(\ln Z-\beta\frac{\partial \ln Z}{\partial \beta}\right)
		\end{aligned}\end{equation}
		\item 显然
		\item 显然
		\item 我们有
		\begin{equation}
		F=U-TS=-\frac{\partial\ln Z}{\partial \beta}-\frac{1}{\beta}\left(\ln Z-\beta\frac{\partial\ln Z}{\partial \beta}\right)=-k_B T\ln Z
		\end{equation} 
	\end{enumerate}\qed
	\end{proof}
	接下来讨论热量以及热力学第一定律
	\begin{definition}[热量]
		根据热力学第一定律，我们定义热量的微元为
		\begin{equation}
		\delta Q=dU+\delta W=dU+\sum_{i=1}^n Y_idX_i
		\end{equation}
		其中$X_i$是广义坐标，$Y_i$是广义力，$\delta W$表示对气体对外界做功。
	\end{definition}
	从而我们可以将熵和热量联系起来
	\begin{theorem}[熵的热力学表示]
		微元$\delta Q$具有积分因子
		\begin{equation}
		\delta Q=TdS
		\end{equation}
		从而
		\begin{equation}
		\frac{\delta Q}{T}=dS
		\end{equation}
		是恰当微分形式。
	\end{theorem}
	\begin{proof}
		注意到
		\begin{equation}
		d\ln Z=\frac{\partial \ln Z}{\partial\beta}d\beta+\sum_{i=1}^n\frac{\partial\ln Z}{\partial X_i}dX_i
		\end{equation}
		以及
		\begin{equation}
		\sum_{i=1}^n Y_idX_i=\sum_{i=1}^n \frac{1}{\beta}\frac{\partial\ln Z}{\partial X_i}dX_i=\frac{1}{\beta}\left(d\ln Z-\frac{\partial\ln Z}{\partial\beta}d\beta\right)
		\end{equation}
		所以
		\begin{equation}
		\delta Q=dU+\sum_{i=1}^n Y_i dX_i=-d\frac{\partial \ln Z}{\partial\beta}+\frac{1}{\beta}\left(d\ln Z-\frac{\partial\ln Z}{\partial\beta}d\beta\right)
		\end{equation}
		又由于
		\begin{equation}
		d\left(\beta\frac{\partial\ln Z}{\partial\beta}\right)=\frac{\partial\ln Z}{\partial\beta}d\beta+\beta d\left(\frac{\partial\ln Z}{\partial\beta}\right)
		\end{equation}
		故
		\begin{equation}
		\delta Q=\frac{1}{\beta}d\left(\ln Z-\beta\frac{\partial\ln Z}{\partial\beta}\right)=TdS
		\end{equation}
		\qed
	\end{proof}

	非恰当微分形式的$\delta Q$和$\delta W$都是路径有关的，也就是说，即使在$p-V$图中始末态相同，依然不能保证线积分
	\begin{equation}
	\int\delta Q,\quad and\ \int\delta W
	\end{equation}
	是相同的。遵循不同的路径，气体对外做功以及放热都会不一样。但是，$\delta Q/T$是恰当微分形式则意味着积分
	\begin{equation}
	\int \frac{\delta Q}{T}=\int dS=S(end)-S(start)
	\end{equation}
	是路径无关的。另一方面，如果是路径是闭的，那么根据Stokes定理，积分就是零，熵不变。这也说明熵确实是态函数。
	
	我们可以继续用配分函数导出焓以及Gibbs自由能。
	\begin{theorem}[用配分函数导出热力学量2]
		\begin{enumerate}
			\item 焓为
			\begin{equation}
			H=-\frac{\partial\ln Z}{\partial\beta}+ \frac{1}{\beta}\sum_{i=1}^n X_i\frac{\partial\ln Z}{\partial X_i}
			\end{equation}
			\item Gibbs自由能为
			\begin{equation}
			G=\frac{1}{\beta}\left(-\ln Z+\sum_{i=1}^n X_i\frac{\partial \ln Z}{\partial X_i}\right)
			\end{equation}
			\item 定体比热容为
			\begin{equation}
			C_{X_i}=k_B\beta^2\frac{\partial^2\ln Z}{\partial\beta^2}
			\end{equation}
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
		\item 利用\begin{equation}
		H=U+\sum_{i=1}^n Y_iX_i
		\end{equation}
		此处的$H$指的是焓而不是哈密顿量
		\item 利用\begin{equation}
		G=F+\sum_{i=1}^n Y_iX_i
		\end{equation}
		\item 根据定体比热容的定义，有
		\begin{equation}
		C_{X_i}=\left(\frac{\delta Q}{dT}\right)_{X_i}=T\frac{\partial S}{\partial T}
		\end{equation}
		由于
		\begin{equation}
		\frac{\partial S}{\partial T}=\frac{\partial S}{\partial\beta}\frac{\partial \beta}{\partial T}=-k_B\beta^2\frac{\partial S}{\partial \beta}
		\end{equation}
		故
		\begin{equation}
		C_{X_i}=-\beta\frac{\partial S}{\partial \beta}=-k_B\beta\frac{\partial}{\partial\beta}\left(\ln Z -\beta\frac{\partial\ln Z}{\partial \beta}\right)=k_B\beta^2\frac{\partial^2\ln Z}{\partial\beta^2}
		\end{equation}
		\end{enumerate}\qed
	\end{proof}

	\section{巨正则系综与化学势}
	为了描述带有粒子数目变化的体系，我们可以引入巨正则系综，也就是体系可以和环境交换热以及粒子的系综，但还不能做功。考虑两个体系，分别具有独立随机向量$E_1,\ N_1$和$E_2,\ N_2$。如果在总能量以及总粒子数守恒的情况下，一个系统达到它最有可能出现的状态，也就是条件密度达到最大值：
	\begin{equation}
	f(E_1,N_1|E_1+E_2=E,N_1+N_2=N)\to \max\{f(E_1,N_1|E_1+E_2=E,N_1+N_2=N)\}
	\end{equation}
	和“正则系综与温度”一节类似，我们可以得到
	\begin{equation}
	f(E_1,N_1|E_1+E_2=E,N_1+N_2=N)\propto f_1(E_1,N_1)f_2(E-E_1,N-N_1)
	\end{equation}
	该条件密度会在
	\begin{equation}\begin{aligned}
	\frac{\partial }{\partial E_1}f(E_1,N_1|E_1+E_2=E,N_1+N_2=N)&=0,\\
	 \frac{\partial }{\partial N_1}f(E_1,N_1|E_1+E_2=E,N_1+N_2=N)&=0
	\end{aligned}\end{equation}
	时取到最大值，所以
	\begin{equation}\begin{aligned}
	f_2(E-E_1, N-N_1)\frac{\partial f_1(E_1,N_1)}{\partial E_1}+f_1(E_1,N_1)\frac{\partial f_2(E-E_1,N-N_1)}{\partial E_1}&=0\\
	f_2(E-E_1, N-N_1)\frac{\partial f_1(E_1,N_1)}{\partial N_1}+f_1(E_1,N_1)\frac{\partial f_2(E-E_1,N-N_1)}{\partial N_1}&=0
	\end{aligned}\end{equation}
	注意到
	\begin{equation}\begin{aligned}
	\frac{\partial f_2(E-E_1,N-N_1)}{\partial E_1}&=-\left.\frac{\partial f_2(E_2,N_2)}{E_2}\right|_{E_2=E-E_1}\\
	\frac{\partial f_2(E-E_1,N-N_1)}{\partial N_1}&=-\left.\frac{\partial f_2(E_2,N_2)}{N_2}\right|_{N_2=N-N_1}
	\end{aligned}\end{equation}
	从而，条件分布密度在
	\begin{equation}\begin{aligned}
	\frac{1}{f_1(E_1,N_1)}\frac{\partial f_1(E_1,N_1)}{\partial E_1}&=\frac{1}{f_2(E_2,N_2)}\frac{\partial f_2(E_2,N_2)}{\partial E_2}\\
	\frac{1}{f_1(E_1,N_1)}\frac{\partial f_1(E_1,N_1)}{\partial N_1}&=\frac{1}{f_2(E_2,N_2)}\frac{\partial f_2(E_2,N_2)}{\partial N_2}
	\end{aligned}\end{equation}
	取到极大值。第一个条件就是温度$T_1=T_2$，而第二个条件则表明另一个体系的状态量，能表示该体系的状态的相等的函数，也就是所谓的化学势：
	\begin{equation}
	\mu_1=\mu_2
	\end{equation}
	
	\begin{definition}[化学势]
		对于一个粒子体系而言，能量和粒子数服从概率密度函数$f(E,N)$，则其化学势定义为
		\begin{equation}
		\beta\mu=\frac{1}{f(E,N)}\frac{\partial f(E,N)}{\partial N}
		\end{equation}
	\end{definition}
	
	在化学势不变的情况下，用分离变量法，可以得到概率密度函数
	\begin{equation}
	f(E,N)=\frac{1}{\Xi}e^{\beta (N\mu-H)}
	\end{equation}
	其中$\Xi$是归一化因子，叫做巨配分函数：
	\begin{equation}
	\Xi=\sum_{N=0}^{\infty}\int e^{\beta (N\mu-H)}dpdq
	\end{equation}
	
	有了巨配分函数，就可以像之前那样写出各种热力学量：
	\begin{theorem}[用巨配分函数写出热力学量]
		\begin{enumerate}
			\item 粒子数可以写为
			\begin{equation}
			N=k_BT\frac{\partial \ln\Xi}{\partial\mu}
			\end{equation}
			\item 内能可以写为
			\begin{equation}
			U=-\frac{\partial\ln\Xi}{\partial\beta}+N\mu
			\end{equation}
			\item 熵可以写为
			\begin{equation}
			S=\frac{U-N\mu+k_BT\ln \Xi}{T}
			\end{equation}
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 我们有
			\begin{equation}
			\frac{\partial\ln\Xi}{\partial \mu}=\beta\left\langle N\right\rangle
			\end{equation}
			其中粒子数的期望为
			\begin{equation}
			\left\langle N\right\rangle=\frac{N}{\Xi}\sum_{N=0}^{\infty}\int e^{\beta(N\mu-H)}dpdq
			\end{equation}
			\item 我们有
			\begin{equation}
			\frac{\partial\ln \Xi}{\partial\beta}=\left\langle N\right\rangle\mu-\left\langle E\right\rangle
			\end{equation}
			\item 我们有
			\begin{equation}\begin{aligned}
			S&=-k_B\sum_{N=0}^{\infty}\int \frac{e^{\beta(N\mu-H)}}{\Xi}\ln\frac{e^{\beta(N\mu-H)}}{\Xi}dpdq\\
			&=-\frac{k_B}{\Xi}\sum_{N=0}^{\infty}\int (\beta(N\mu-H)-\ln\Xi)e^{\beta(N\mu-H(p,q))} dpdq\\
			&=-\frac{1}{T}\frac{\partial\ln\Xi}{\partial\beta}+k_B\ln\Xi=\frac{U-N\mu+k_BT\ln\Xi}{T}
			\end{aligned}\end{equation}
		\end{enumerate}\qed
	
	\end{proof}
	\begin{definition}[巨势]
		我们称势函数
		\begin{equation}
		J=-k_BT\ln\Xi
		\end{equation}
		为巨势
	\end{definition}

	\begin{theorem}[巨势的热力学关系式]
		巨势满足
		\begin{equation}
		J=U-TS-\mu N=F-\mu N
		\end{equation}
		其微分式为
		\begin{equation}
		dJ=-SdT-\sum_{i=1}^n Y_idX_i-Nd\mu
		\end{equation}
	\end{theorem}
	\begin{proof}
		根据用巨配分函数导出的熵，有
		\begin{equation}
		k_BT\ln\Xi=U-TS-N\mu=F-N\mu
		\end{equation}
		容易验证
		\begin{equation}
		N=-k_BT\frac{\partial\ln\Xi}{\partial\mu}=-\frac{\partial J}{\partial\mu}
		\end{equation}
		以及
		\begin{equation}
		S=-k_B\ln\Xi-k_BT\frac{\partial\ln\Xi}{\partial T}=-\frac{\partial J}{\partial T}
		\end{equation}
		还有
		\begin{equation}
		Y_i=-\frac{1}{\Xi}\sum_{N=0}^{\infty}\int \frac{\partial H}{\partial X_i}e^{\beta(N\mu-H)}dpdq=k_BT\frac{\partial\ln\Xi}{\partial X_i}=-\frac{\partial J}{\partial X_i}
		\end{equation}
		再与巨势的全微分进行比较，就有
		\begin{equation}
		dJ=\frac{\partial J}{\partial T}dT+\sum_{i=1}^{n}\frac{\partial J}{\partial X_i}dX_i+\frac{\partial J}{\partial \mu}d\mu
		\end{equation}
		即得
		\begin{equation}
		dJ=-SdT-\sum_{i=1}^n Y_idX_i-Nd\mu
		\end{equation}
		\qed
	\end{proof}

	最后，我们给出Gibbs自由能与化学势之间的重要联系。这在分析化学反应时特别有用。
	\begin{theorem}[Gibbs自由能与化学势]
		化学势$\mu$可以看作是单粒子的Gibbs自由能，也就是说
		\begin{equation}
		\mu=\frac{G}{N}
		\end{equation}
	\end{theorem}
	\begin{proof}
		由于熵$S$是关于$(U,V,N)$的齐次函数，也就是所谓的“广延量”，把体系的尺度扩大$\lambda$倍，熵也会扩大同样的倍数：
		\begin{equation}
		S(\lambda U,\lambda V,\lambda N)=\lambda S(U,V,N)
		\end{equation}
		在方程两边对$\lambda$取偏导数可得
		\begin{equation}
		S=U\frac{\partial S}{\partial(\lambda U)}+V\frac{\partial S}{\partial(\lambda V)}+N\frac{\partial S}{\partial(\lambda N)}
		\end{equation}
		再令$\lambda = 1$可得
		\begin{equation}
		S=U\frac{\partial S}{\partial U}+V\frac{\partial S}{\partial V}+N\frac{\partial S}{\partial N}=\frac{U}{T}+\frac{pV}{T}-\frac{\mu N}{T}
		\end{equation}
		所以
		\begin{equation}
		U-TS+pV=G=\mu N
		\end{equation}\qed
	\end{proof}

	在化学反应中，常用的反应条件是恒定的压强和温度。于是，化学反应达到平衡时，吉布斯自由能应当达到极小值。结合道尔顿分压定律，就可以得到用压强定义的平衡常数、van't Hoff 方程，还有Le Chatelier定律。
	
	\section{全同粒子与Gibbs佯谬}
	考虑一个两能级系统，基态能量为0，激发态能量为$E$，现在有两个粒子，如果这两个粒子之间互相可分辨的话，那么就有四种情况：AB都基态，AB都激发态，A基态B激发态，A激发态B基态。对应的配分函数是
	\begin{equation}
	Z=1+e^{\beta E}+e^{\beta E}+e^{2\beta E}
	\end{equation}
	如果是不可分辨的粒子，那么就只有三种情况了：两个粒子都基态，一个粒子基态一个粒子激发态，两个粒子都激发态
	\begin{equation}
	Z=1+e^{\beta E}+e^{2\beta E}
	\end{equation}
	于是，粒子的可分辨性造成了配分函数的不同，从而在宏观物体中如果要考虑粒子的可分辨性的话，那么推导出来的结果就是完全不同的。
	
	之前的经典统计力学的力学基础是基于牛顿力学的，在牛顿力学中每一个质点都是可分辨的，它们的坐标和动量都被指标安排得明明白白。但是，这种默认粒子是可分辨的做法，首先看上去就不大对：我们其实并没有办法分辨出各个粒子。然后，量子力学中的二次量子化也表明，粒子的全同性是粒子的最基本的性质之一。最后，如果我们在经典统计力学里想把这个搪塞过去，那么就会引起Gibbs佯谬。
	
	考虑一个装有单原子理想气体的恒温刚性盒子，其熵为(计算方法见配分函数与热力学量一节)
	\begin{equation}
	S=k_B N\ln V+\frac{3}{2}k_BN\ln(2\pi mk_BT)+\frac{3}{2}k_BN
	\end{equation}
	熵的表达式中的后两项都正比于$N$，因而是广延量；但是第一项正比于$N\ln N$，不是广延量。这就导致了一个荒谬的结果：如果我在这个盒子中间插上一个隔板，那么左右两边的熵之和就会增大；如果我又抽去隔板，熵又会变回来。
	
	如果粒子各个都不一样的话，我们插入隔板这个动作的确会导致信息量的增加，有一些粒子只能在左边，还有一些粒子只能在右边，混乱度减少了。但物理上看，我们其实什么信息都没给，这些粒子全都是一样的，两个独立部分合在一起的熵应当等于分别的熵的和。
	
	解决这个问题的方案就是考虑全同性。仅仅考虑半经典近似，配分函数为
	\begin{equation}
	Z=\int e^{-\beta H(p,q)}\frac{dpdq}{h^{3N}N!}
	\end{equation}
	其中多除以的$N!$就是考虑了全同性之后，需要除以的排列数。然后熵就要多减去一项$\ln N!\approx N\ln N$(Stirling 公式)，这就正好能把引起麻烦的那一项给变成广延量。
	
	所以经典统计物理是有内在缺陷的，必须引入量子统计才能完整地解决这个问题。但是经典统计还是取得了巨大的成功，从配分函数到各种热力学量这一套方案依然实用，出问题的是从哈密顿量到配分函数这个过程，于是在求配分函数时，从对动量进行积分换元到对能量进行积分，这时要乘以态密度，而这个过程中最重要的就是色散关系，也就是频率(能量)与波矢(动量)的关系。这样能规避很多问题。
	
	%\part{数理统计}
	